Introduction à la programmation Triton : Passer des threads aux instances de programme

Dans Triton, l'unité fondamentale d'exécution passe du thread scalaire CUDA à la instance de programme. Cela représente une abstraction d'un bloc de threads GPU, où une seule instance traite simultanément un bloc vectorisé d'éléments.

1. L'identité de l'instance de programme

Chaque unité d'exécution récupère son identité via pid = tl.program_id(axes=0). Pensez à un chariot élévateur de stockage (l'instance de programme) qui ramasse un palet (le bloc) de 128 boîtes, comparé à un ouvrier unique (thread CUDA) qui ramasse une seule boîte.

2. Triton vs. tenseurs PyTorch

Comprendre le fossé sémantique est essentiel pour la gestion de la mémoire :

Tenseur PyTorch : Un objet Python côté hôte enveloppant le stockage en VRAM, les pas et les métadonnées.
Tenseur Triton : Un objet au niveau du compilateur représentant des valeurs ou des pointeurs résidant dans les registres ou la SRAM.

Vue PyTorch
Objet Python pointant vers une mémoire globale contiguë.

Vue Triton
Un bloc 2D/1D de données à l'intérieur des registres du compilateur.

3. Nature SPMD

Triton suit un modèle Programme unique, données multiples (SPMD) de flux. Chaque instance de programme exécute le même code exactement code. La divergence n'apparaît que lorsque la logique utilise le pid pour calculer des décalages de mémoire spécifiques.

TERMINALbash — 80x24

> Ready. Click "Run" to execute.

QUESTION 1

What is the primary identifier for a Triton execution unit?

threadIdx.x

tl.program_id(axis=0)

tl.block_idx()

torch.get_id()

QUESTION 2

True or False: A Triton tensor is a Python object that stores metadata like strides on the host CPU.

True

False

QUESTION 3

What is the result of 'forgetting that all program instances execute the same kernel body'?

The compiler will automatically distribute tasks.

Race conditions or overwriting memory if pid-based logic is missing.

The kernel will fail to compile due to a syntax error.

Execution time will double.

QUESTION 4

In the forklift analogy, what does the 'Aisle Number' represent?

The BLOCK_SIZE

The program_id (pid)

The GPU Driver version

The Pointer address

QUESTION 5

Why is the Triton model considered 'Vectorized' compared to CUDA?

It uses Python lists.

One Program Instance handles a block of elements, not just one scalar element.

It only works with 2D matrices.

It runs on the CPU's SIMD units.